@马创新等:《先秦诸家学派的相关系数与特征词研究》
研究背景与目的
- 背景: 先秦诸子百家思想研究,历来以定性分析为主。
- 目的: 运用计算语言学和数字人文方法,对先秦主要学派(儒、道、法、兵、墨)进行定量研究。
- 核心任务:
- 计算学派间的相关度,探究其思想亲疏。
- 识别各学派的主题特征词,揭示其核心思想。
研究方法与过程
核心思路
- 将文本词语的出现频次转化为等级。
- 通过等级归一化(等值化),解决不同文献体量差异问题。
- 运用统计学公式计算相关度与特征词。
语料库 (Corpus)
- 儒家: 《论语》、《孟子》
- 道家: 《老子》、《庄子》
- 法家: 《韩非子》、《商君书》
- 兵家: 《孙子》、《吴子》
- 墨家: 《墨子》
计算步骤
-
词频与排序:
- 统计各文献词频,按频次降序排列。
- 使用“并列法”处理同频词,即同频词等级相同。
-
等级等值化 (Normalization):
- 问题: 各文献词型总数不同,原始等级不具可比性。
- 方法: 为每部文献设定“等级系数”,进行归一化,得到“转化等级”。
- 等级系数 = 100 / 文献最大词型等级
-
学派内等级确定:
- 对于同学派内的多部文献(如儒家、道家),其共有词的“最终等级”为其各自“转化等级”的平均值。
-
相关度计算 (Spearman's Rank Correlation):
- 原理: 计算两两学派间高频共有词的等级序列相关性。
- 公式:
: 每一对词型的等级差。 : 样本数(词型数量)。 - 我们用ARs来表示“以学派A中特定数量词型为样本”与学派B中全部词型比较所得到的相关系数,对于在学派A中出现而学派B中没有出现的词型,就假定该词型在学派B中的最终等级为101。
- 学派A与B的相关度用ABRs来表示,ABRs等于ARs与BRs的均值,即:ABRs=(ARs+BRs)/2。
-
特征词计算 (Rank Difference Method):
- 原理: 计算某词在特定学派中的等级,与它在其他所有对比学派中平均等级的差值。
- 公式:
: 词语在特定学派中的特征系数。 : 该词在“对比学派 j”与“特定学派”中的最终等级之差。 : 对比学派的数量。
- 系数解读:
- 正值: 表明该词在本学派中重要性显著更高。
- 负值/零: 表明该词在本学派中重要性更低或相当。
主要研究发现
学派间相关度
- 最高相关: 儒家 与 道家 (
0.86
)- 原因: 思想接近,共同关注“民本”,提倡以道德为基础的治理理念。
- 最低相关: 兵家 与 墨家 (
0.36
)- 原因: 思想差异巨大。墨家主张“兼爱非攻”,兵家聚焦“用兵之道”。
- 最高平均相关度 (影响力最强): 道家
- 说明: 先秦时期,道家思想对其他学派影响广泛且深入。
各学派核心特征词
- 儒家:
孔子
,仁
,君子
,禮
,學
,問
,子路
,子貢
- 道家:
德
,聖人
,物
,生
,始
,天下
,道
,名
,無為
- 法家:
主
,法
,姦
,私
,力
,官
,刑
,賞
,勢
- 兵家:
軍
,戰
,敵
,兵
,擊
,勝
,地
,進
,卒
- 墨家:
尺
,城
,愛
,兼
,天
,鬼
,義
,政
,攻
结论
- 方法有效:
- 本文提出的定量分析方法是可行的,能有效揭示学派间的关系和各自的核心思想。
- 结果印证:
- 计算结果(相关度、特征词)与传统定性研究的结论基本相符,并提供了数据支持。
- 推广价值:
- 此方法可应用于其他类似的思想史或文本比较研究中。